Scale Up 与 Scale Out
概念解析
定义与起源
Scale Up 是把一台计算机做得更大——更多 GPU、更快内存、更宽内联(NVLink);Scale Out 是把多台计算机连起来跨节点扩展(InfiniBand / 以太网 / Spectrum-X)。在 黄仁勋 的论述里,它不只是一对工程术语,而是一条根本的工程哲学:你必须先 scale up 再 scale out,顺序不能错。
最完整的论述出现在 2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin:
"The fundamental nature of distributed computing is that you have a lot of machines collaborating to solve a really large problem. There's no replacement for scale up before you scale out. Both are important, but you have to scale up first."
"分布式计算的本质是让很多台机器一起解决一个很大的问题,但没有什么能替代 scale up——在你 scale out 之前,你必须先 scale up。两者都重要,但顺序不能错。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
核心要义
第一,如果只靠 scale out,深度学习根本不会发生。
"Hadoop is a great idea—it lets hyperscale data centers solve giant problems with commodity machines. But the problems we're solving now are too complex; the power that approach burns is too much. If we only had scale out, deep learning would never have happened. So we have to scale up first."
"Hadoop 是天才的想法,它让超大规模数据中心用一堆现成的商用机器解决巨型问题。但我们现在要解的问题太复杂了,那种做法要烧掉的电太多了。如果只靠 scale out,深度学习根本不会发生。所以我们必须先 scale up。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
第二,Scale Up 的物理形态是机柜——是 NVIDIA 最极致的工程作品。
"Why do we put all that effort in? Because we really wanted to make this chip—130 trillion transistors, 20 trillion of which are computing. But there's no reticle limit, no process node that could make this chip. So we disaggregated it into the Grace Blackwell NVLink72 rack. This is the most extreme scale up the world has ever done."
"我们想造的是 130 万亿晶体管的一颗芯片——但没有哪条 reticle 极限或工艺节点能做出来。所以我们把它 disaggregate 成 Grace Blackwell NVLink72 机柜。这是人类做过的最极致的 scale up。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
第三,Scale Up 用 NVLink + 铜,Scale Out 用 InfiniBand / Spectrum-X + 光。
2023-Q1 NVIDIA FY24 财报 - iPhone 时刻 给出了 InfiniBand vs 以太网的辩论:
"InfiniBand and Ethernet target very different applications. InfiniBand is designed for AI factories. The total throughput difference is about 15-20%. If you put $500 million into infrastructure, the difference is $100 million—InfiniBand is essentially free."
"如果你投了 5 亿美元,差别就是 1 亿美元——InfiniBand 本质上是免费的。"
——2023-Q1 NVIDIA FY24 财报 - iPhone 时刻
而 2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 里更进一步——机柜内部一定要用铜:
"Copper goes 1-2 meters when copper goes 1-2 meters. Inside the rack we use copper because it's reliable, cheap, and saves power."
到了机柜之外就必须用光——这就是 NVIDIA 押注 CPO 硅光子的根本原因。
第四,Vera Rubin 把 scale up 推到 NVLink576。
2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 的路线图:
- Hopper:1 倍 FLOPS 基准
- Blackwell NVLink72:68 倍
- Vera Rubin NVLink144:下一年下半年
- Rubin Ultra NVLink576:900 倍 scale-up FLOPS
- Feynman:再下一代
每一代都是 scale up 在拉极限。
实践应用
- NVLink —— Scale Up 的物理层
- InfiniBand —— Scale Out for AI factories
- Spectrum-X —— Scale Out for hyperscale generative AI clouds
- NVLink Switch —— 500 亿晶体管的"连接器"芯片,让 NVLink72 成为可能
- CPO 硅光子 —— Scale Out 的下一代基础设施
常见误区
误区一:Scale Out 比 Scale Up 重要——反正可以加机器。
错。问题装不下一台机器的时候,"加机器"的代价是指数级增长的通信开销和能耗。先 scale up 把单机做到最大,再 scale out 才有意义。
误区二:商品以太网够用了。
错——但分场景。多租户云、几百万小任务、跑 Hadoop 时以太网够用;AI 工厂里训练大模型必须 InfiniBand 或 Spectrum-X。
误区三:Scale Up 就是把更多 GPU 塞进一台服务器。
错。Scale Up 在 NVIDIA 的语境里是"整机柜级",意味着重新设计电源、冷却、铜线拓扑、NVLink 交换、机柜结构——是 Extreme Co-Design 的一个具体方向。
黄仁勋原话精选
"There's no replacement for scale up before you scale out."
"在你 scale out 之前,你必须先 scale up。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin"If we only had scale out, deep learning would never have happened."
"如果只靠 scale out,深度学习根本不会发生。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin"This is the most extreme scale up the world has ever done."
"这是人类做过的最极致的 scale up。"
——2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin
思想演变
- 2016 年:DGX-1 把 8 颗 GPU 用 NVLink 连成"虚拟巨型 GPU"——scale up 的雏形
- 2019 年:收购 Mellanox——把 InfiniBand 收入囊中,正式进入 scale out
- 2022 年春:GTC 2022 开放 NVLink 给客户做半定制芯片——scale up 走出 NVIDIA 内部
- 2023 年春:GTC 2023 H100 NVL 把单节点 8 颗 GPU 翻倍
- 2024 年春:GTC 2024 NVLink72 + GB200 把 scale up 推到机柜级
- 2025 年春:GTC 2025 给出 NVLink576 的路线图(Rubin Ultra),并把"scale up first" 作为正式工程哲学
相关概念
- Extreme Co-Design —— Scale Up 是 Extreme Co-Design 的一个具体方向
- 数据中心即计算机 —— Scale Up 推到极致就是机柜变成计算机
- 加速计算 —— Scale Up 的根命题
- AI 工厂 —— Scale Up + Scale Out 共同构成 AI 工厂的拓扑
典型案例
- Blackwell NVLink72:720 petaflops 塞进 60 万零件的一个机柜
- Vera Rubin NVLink144 → NVLink576:scale up 的下一站
- NVLink Switch 500 亿晶体管:NVIDIA 第一颗"专门为连接而生"的芯片
- xAI Colossus:4 个月建起 20 万→50 万 GPU 集群——scale out 的极致案例